#AI 发展历程话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

应该是上周 Jeff Dean 在斯坦福做了个分享，用AI总结写成文章，视频见评论区 AI 是怎么突然变这么强的？ Jeff Dean，Google 的 AI 负责人，他用自己的经历，讲了这个故事。他说："我们今天看到的 AI，是过去十五年技术叠加的产物。" 不是一个突破。是一系列突破。每一个突破，都让 AI 往前跨了一大步。接下来，让我讲清楚这些突破是什么。从最早的"模型学会了猫"，到今天的"AI 拿奥数金牌"。 2012，模型自己学会认识猫 2012 年。Google Brain 项目。 Jeff Dean 和他的团队，在做一个实验。他们想知道：AI 能不能自己学会认识东西？不给标签，不告诉它"这是猫""这是狗"。就给它一堆图片，让它自己看。他们用了 1000 万个 YouTube 视频帧，随机的。没有任何标注。然后，他们训练了一个神经网络。网络很大，比以往大 50 到 100 倍。训练完之后，他们看了看网络顶层的神经元。它们在对什么敏感？结果让所有人震惊。有一个神经元，对"猫"特别敏感。你给它一张猫的图片，这个神经元就会被激活。你给它一张狗的图片，它不会被激活。模型自己学会了"猫"是什么。没人教它。它自己从 1000 万张图片里，学会了。这就是无监督学习。 Jeff Dean 说："这太酷了。" 因为这证明了：AI 可以自己发现概念。不需要人类告诉它"这是什么"。它只需要看够多的数据。这是 AI 学习能力的起点。我们讲了 AI 怎么学会"看"。现在，我们讲 AI 怎么学会"理解语言"。关键技术：Word2Vec。以前，计算机处理语言，是把每个词当成一个孤立的符号。"猫"就是"猫"。"狗"就是"狗"。它们之间，没有关系。但 Word2Vec 不一样。它把每个词，变成一个高维向量。什么意思？就是，每个词都是一串数字。比如，"国王"可能是 (0.5, 0.8, 0.3, ...)。"女王"可能是 (0.5, 0.2, 0.3, ...)。但神奇的是：这些向量的方向，是有意义的。如果你做一个计算："国王" - "男人" + "女人"，你会得到一个新的向量。这个向量，最接近的词是："女王"。这就是 Word2Vec 的魔力。它不只是把词变成数字。它让语义关系，变成了数学关系。"国王"和"女王"的关系，就像"男人"和"女人"的关系。这个关系，被编码在向量的方向里。 Jeff Dean 说："这让机器第一次能'理解'语言。" 不是真的理解。但它能计算语义。我们讲了 AI 怎么理解语言。现在，我们讲一个更现实的问题：算力。 2015 年左右。Google 想推出一个改进后的语音识别模型。效果很好，用户会喜欢。但有一个问题。 Jeff Dean 算了一笔账：如果要用这个模型，Google 需要把计算机数量翻一倍。你没听错。翻一倍。这是什么概念？Google 当时已经有几十万台服务器了。翻一倍，意味着再买几十万台。这根本不现实。所以，他们必须想办法。答案是：专用硬件。他们发现，神经网络有一个特性：它对低精度计算非常宽容。而且，它的核心就是密集的矩阵乘法。这两个特性，让他们可以设计专门的芯片。不用通用的 CPU，也不用 GPU。而是专门为神经网络设计的芯片。这就是 TPU：Tensor Processing Unit。 2015 年，TPUv1 推出。它比当时的 CPU 和 GPU，快 15 到 30 倍。能效高 30 到 80 倍。这解决了算力危机。后来，他们继续迭代。最新的系统，比 TPUv2 快了 3600 倍。 Jeff Dean 说："没有专用硬件，就没有今天的 AI。" 算力，是 AI 的基础设施。 Transformer 改变了一切我们讲了硬件。现在，我们讲架构。 2017 年。Google 的一个同事，提出了一个新架构。Transformer。这改变了一切。在 Transformer 之前，处理语言的模型，都是循环模型。什么意思？就是，模型要一个词一个词地处理。而且，它要把所有信息，压缩到一个向量里。这很低效。 Transformer 不这么干。它的核心思想是：不要压缩，保存所有中间状态。然后，让模型在需要的时候，去"关注"（Attend to）任何一个状态。这就是 Self-Attention。结果呢？准确率更高。计算量少了 10 到 100 倍。模型参数小了 10 倍。这太疯狂了。更快，更准，更小。而且，Transformer 不只能处理语言。它还能处理图像。这就是 Vision Transformer（ViT）。 Jeff Dean 说："Transformer 是现代 AI 的基础。" ChatGPT 用的是 Transformer。 Gemini 用的是 Transformer。所有你看到的大模型，都是 Transformer。让模型变聪明的三个技巧我们讲了 Transformer。现在，我们讲训练。怎么让模型变得更聪明？有三个关键技巧。第一个：稀疏模型。正常的神经网络，每次预测都要激活整个模型。太浪费了。稀疏模型不一样。它只激活 1% 到 5% 的参数。剩下的，都在"睡觉"。这让训练成本降低了 8 倍。 Jeff Dean 说："Gemini 就是稀疏模型。" 第二个：蒸馏。这是把知识从大模型转移给小模型。怎么转？大模型不只告诉小模型"对"或"错"。它给的是概率分布。这个信号非常丰富。结果呢？小模型只用 3% 的数据，就能达到大模型的效果。第三个：思维链。你给模型一个例子，让它"展示它的工作过程"。比如，做数学题的时候，不是直接给答案，而是一步一步写出推理过程。这让模型在复杂推理任务上的准确率，显著提升。这三个技巧，让模型变得更高效、更聪明。前面我们讲了 AI 的技术基础。现在，我们讲成果。 2022 年。Google 的研究员们，在为一件事兴奋。他们的模型，终于能做初中数学题了。准确率：15%。 "约翰有五只兔子，又得了两只，他现在有几只兔子？"这种题。AI 能做对 15%。他们觉得，这是个突破。 2024 年。两年后。同一个团队，发布了 Gemini 2.5 Pro。他们让它参加国际数学奥林匹克。六道题。它做对了五道。这是金牌水平。从 15% 的初中数学题，到奥数金牌。两年。 Jeff Dean 说："这就是 AI 的进步速度。" 不是线性的。不是慢慢变好。是指数级的。 2022 年，AI 还在学加法。 2024 年，AI 已经在解奥数题了。那 2026 年呢？我们不知道。但如果按这个速度，可能会超出我们的想象。这就是我们今天看到的 AI。它不是慢慢变强的。它是突然变强的。从 2012 年的"模型学会了猫"，到 2024 年的"AI 拿奥数金牌"。十二年。 AI 从几乎什么都不会，变成了几乎什么都会。那接下来呢？ Jeff Dean 说：AI 将对医疗、教育、科学研究产生巨大影响。一个不会写代码的人，也能让 AI 帮他创建网站。这是把专业知识普及给更多人。但同时，我们也必须正视潜在的风险。比如，错误信息传播。 AI 可以生成非常逼真的内容。如果被滥用，后果很严重。 Jeff Dean 说："我们不能对潜在的负面影响视而不见。我们的目标是，在最大化 AI 益处的同时，最小化潜在的弊端。" 这就是 AI 的故事。从反向传播，到 Transformer，到 Gemini。过去十五年，技术、硬件、算法，全都叠加在一起。我们今天看到的 AI，是这一切的产物。而这个故事，还在继续。

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#AI #Jeff Dean #transformer #Gemini #AI 发展历程